NVIDIA发明新技术KVTC 内存使用量缩减20倍

首页

NVIDIA发明新技术KVTC 内存使用量缩减20倍

NVIDIA研究人员推出一项全新技术KVTC（KV快取转换编码），能把大型语言模型（LLM）追踪对话历史的内存用量，最高缩减20倍，而且不用修改模型本身。这一突破有望解决大型语言模型长对话推理时的内存不够用问题，大大降低企业使用AI的硬件成本，同时还能把模型首次生成回应的时间，最高提速8倍。

互联网 2026年03月23日 0 点赞 0 评论 275 浏览